#음성 인식

2026년 최고의 공개 음성 인식 모델 비교

2026년에 접어들며 오픈소스 음성 인식(ASR) 생태계는 더 이상 OpenAI의 Whisper가 독점하지 않게 되었습니다. 이제 Cohere Transcribe, IBM Granite, MOSS-Transcribe 등 여러 오픈소스 모델들이 오차율 1% 미만의 비슷한 성능을 보여주고 있습니다. 이 글은 16개 모델의 인식률, 언어 지원, 스트리밍 속도 및 라이선스를 비교하고, 공개된 단순 평균 점수로 순위를 매기는 것이 무의미해진 이유를 설명합니다.

음성 인식 오픈소스 ASR

MarkTechPost • 26일 전

IMP 6

인터페이즈, 6개국어 지원 오픈소스 디퓨전 ASR 모델 공개

인터페이즈(Interfaze)는 기존 자기회귀 방식이 아닌 디퓨전(Diffusion) 기술을 적용하여 6개 국어를 전사할 수 있는 다국어 음성 인식(ASR) 모델을 오픈소스로 공개했습니다. 이 모델은 구글의 언어 모델에 약 4,200만 개의 매개변수(Parameter)를 가진 어댑터(Adapter)를 결합해 음성 입력을 처리하며, 전사 비용이 텍스트 길이가 아닌 노이즈 제거(Denoising) 단계에 따라 결정된다는 점에서 큰 의의가 있습니다.

음성 인식 디퓨전 모델 오픈소스

MarkTechPost • 35일 전

IMP 7

파이썬 엔비디아 카나리 모델로 음성 인식·번역·자막 생성하는 법

엔비디아의 최신 음성 인식 모델인 카나리-1B(Canary-1B-v2)를 활용해 다국어 음성 인식(ASR) 및 번역 파이프라인을 구축하는 튜토리얼입니다. 이 가이드를 통해 개발자는 GPU 환경에서 오디오를 전처리하고, 음성을 여러 언어로 번역하며, 타임스탬프가 포함된 자막(SRT) 파일을 자동으로 추출하는 전체 과정을 빠르게 실무에 적용할 수 있습니다.

음성 인식 엔비디아 파이썬

MarkTechPost • 49일 전

IMP 8

구글, 70개국어 실시간 음성번역 '제미나이 3.5' 공개

구글이 70개 이상의 언어를 지원하는 실시간 스트리밍 음성-음성 번역 모델인 '제미나이 3.5 라이브 트랜슬레이트(Gemini 3.5 Live Translate)'를 출시했습니다. 이 모델은 화자의 음성보다 단 몇 초 지연되어 끊김 없이 오디오를 생성하며, 개발자들은 제미나이 라이브 API(Gemini Live API)를 통해 이 기술에 접근할 수 있습니다. 구글 미트(Google Meet)와 번역 앱(Translate app)에도 통합되어 실시간 통역의 실용성과 사용자 경험이 획기적으로 개선되었다는 점에서 중요합니다.

구글 제미나이 실시간 번역

TechCrunch AI • 61일 전

IMP 7

유튜브, AI 추천·자동 재생 속도 등 팟캐스트 신기능 공개

유튜브가 프리미엄 사용자를 위해 AI 기반 맞춤형 팟캐스트 추천, 대화 속도에 맞춰 지능적으로 재생 속도를 조절하는 '자동 속도(Auto speed)', 그리고 이동 중이나 멀티태스킹에 최적화된 '이동 중 모드(On-the-go)'를 새롭게 선보입니다. 이는 넷플릭스 등 경쟁 플랫폼과 스포티파이 같은 오디오 중심 앱의 사용자를 공략하기 위한 유튜브의 전략으로 풀이됩니다.

유튜브 팟캐스트 AI 추천

Google AI Blog • 70일 전

IMP 8

구글 워크스페이스의 새로운 AI 작업 방식

구글이 워크스페이스에 새로운 음성 대화 기능, 이미지 생성·편집 앱인 '구글 픽스(Google Pics)', 24시간 개인 AI 에이전트 '제미나이 스파크(Gemini Spark)' 등을 도입한다고 발표했습니다. 이번 업데이트는 사용자가 단순히 텍스트를 넘어 음성과 정밀한 이미지 편집 기능을 통해 작업 효율을 극대화할 수 있게 해준다는 점에서 중요합니다. AI Inbox 기능 확대와 함께 이번 신기능들은 구글 AI 구독자 및 워크스페이스 비즈니스 고객을 위해 이번 여름부터 순차적으로 제공될 예정입니다.

구글 워크스페이스 생산성 AI Gemini

Hacker News • 78일 전

IMP 8

인터페이즈: 대규모 정밀 작업 특화 신규 AI 모델

인터페이즈(Interfaze)는 트랜스포머 모델의 유연성과 DNN/CNN 모델의 높은 정확도를 결합하여 OCR, 비전, 음성 인식, 구조화된 출력 등의 작업에서 최적화된 성능을 제공하는 새로운 아키텍처입니다. 이 모델은 Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini 등과 비교하여 9개 벤치마크에서 대부분 우수한 성능을 보여주었으며, 특히 처리 비용과 응답 시간을 획기적으로 낮추면서도 높은 정확도를 유지하는 것이 특징입니다.

새로운 아키텍처 OCR 비전 모델

MarkTechPost • 87일 전

IMP 8

사카나 AI, 지연 없는 실시간 음성 AI 'KAME' 공개

사카나 AI가 대규모 언어 모델(LLM)의 지식을 실시간으로 주입할 수 있는 새로운 음성 대 음성(Speech-to-Speech) 아키텍처 'KAME'를 소개했습니다. 이 기술은 기존 시스템의 한계를 넘어 응답 지연 시간(Latency)을 전혀 추가하지 않으면서도 고도화된 지식 기반 대화를 가능하게 합니다. 실무자 관점에서 실시간성과 정확성이 필수적인 차세대 AI 음성 비서 개발에 매우 중요한 돌파구로 평가됩니다.

음성 인식 대화형 AI LLM

TechCrunch AI • 87일 전

IMP 6

검증된 최고의 AI 받아쓰기 앱 순위

대형 언어 모델(LLM) 및 음성 인식 기술의 발전으로 기존의 느리고 부정확했던 받아쓰기 앱들이 비약적으로 향상되었습니다. 최신 AI 앱들은 문맥을 파악해 자연스럽게 문장을 formatting하고, 불필요한 말과 언어적 실수를 자동 교정하여 텍스트 편집의 수고를 크게 줄여줍니다. 본 기사는 뛰어난 정확도, 개인화 기능, 철저한 개인정보 보호 등 각기 다른 강점을 가진 6가지 유망한 AI 받아쓰기 앱을 소개하고 평가합니다.

음성 인식 생산성 앱 받아쓰기

The Decoder • 87일 전

IMP 7

엑스AI 커스텀 보이스: 1분 녹음으로 목소리 복제

엑스AI(xAI)가 약 1분 분량의 짧은 음성 녹음만으로 자신의 목소리를 복제할 수 있는 '커스텀 보이스(Custom Voices)' 기능을 출시했습니다. 실시간 인증과 음성 특징 비교를 통한 2단계 검증을 통해 타인의 목소리나 기존 녹음본의 무단 복제를 원천 차단하여 오용을 방지하는 것이 특징입니다. 이 기능은 기존에 공개된 음성-텍스트/텍스트-음성 변환 API 및 스타링크(Starlink) 고객 지원에 적용된 음성 에이전트 모델과 연동되어 추가 요금 없이 사용할 수 있어 개발자와 실무자들에게 유용한 도구로 평가받습니다.

음성 복제 엑스AI 인증 보안

Hacker News • 92일 전

IMP 9

마이크로소프트, 오픈소스 최고 수준 음성 AI '바이브보이스' 공개

마이크로소프트가 장문 음성 처리 및 구조화된 전사에 특화된 음성 인식(ASR) 및 합성(TTS) 오픈소스 모델 패밀리인 '바이브보이스(VibeVoice)'를 공개했습니다. 이 모델은 최대 60분의 오디오를 한 번에 처리하고 발화자 구분, 타임스탬프, 내용을 구조화하여 출력하는 것이 가장 큰 특징입니다. 50개 이상의 언어를 지원하며, 최근에는 허깅페이스(Hugging Face) 트랜스포머 라이브러리와 vLLM 추론 통합을 통해 실무 적용이 매우 용이해졌습니다.

음성 인식 텍스트 음성 변환 마이크로소프트

TechCrunch AI • 95일 전

IMP 6

노싱(Nothing), 자체 AI 받아쓰기 도구 출시

하드웨어 기업 노싱(Nothing)이 음성을 포맷팅된 텍스트로 변환해주는 AI 받아쓰기(dictation) 도구인 '에센셜 보이스(Essential Voice)'를 출시했습니다. 이 도구는 필러 words 제거, 사용자 맞춤형 음성 단축키 설정 및 100개 이상의 언어에 대한 실시간 번역 기능을 지원하며, 향후 앱 맞춤형 문체 및 어조 변경 기능도 추가될 예정입니다. 구글의 최근 오프라인 받아쓰기 앱 출시와 더불어, 시스템 수준의 AI 받아쓰기 기능 통합이 향후 업계의 주요 트렌드로 자리 잡을 것으로 보입니다.

AI 받아쓰기 노싱(Nothing) 에센셜 보이스

TechCrunch AI • 112일 전

IMP 7

구글, 오프라인 작동하는 AI 받아쓰기 앱 조용히 출시

구글이 오프라인에서도 작동하는 무료 AI 받아쓰기 앱 'Google AI Edge Eloquent'를 iOS용으로 조용히 출시했습니다. 이 앱은 음성을 텍스트로 변환할 때 '음, 어' 같은 불필요한 양념 말을 자동으로 제거하고 문장을 매끄럽게 다듬어 주며, 클라우드 모드를 끄면 기기 내부의 온디바이스 AI 모델만으로도 작동합니다. 이번 실험적 앱 출시는 기존의 음성 인식 기술을 한 단계 뛰어넘어 사용자의 의도를 파악해 바로 사용할 수 있는 깔끔한 텍스트를 제공한다는 점에서 업계의 큰 주목을 받고 있습니다.

구글 음성 인식 온디바이스 AI

r/LocalLLaMA • 114일 전

IMP 7

M3 Pro에서 구동되는 Gemma E2B 실시간 AI

오픈소스 모델인 Gemma를 활용해 오디오와 비디오를 입력받아 음성으로 출력하는 실시간 AI가 Apple M3 Pro 환경에서 로컬 구동되는 것을 확인한 사례입니다. 복잡한 에이전트 코딩은 불가능하지만 다국어 처리가 가능하여 언어 학습용으로 혁신적인 활용성을 보여줍니다. 수년 전 OpenAI가 시연했던 것과 같이 스마트폰 카메라로 사물을 인식하고 모국어로 소통하는 미래가 로컬 환경에서도 가까워지고 있습니다.

오픈소스 로컬 AI 음성 인식